A Hierarchical Spatio-Temporal Graph Convolutional Neural Network for Anomaly Detection in Videos

单位：北京航空航天大学
会议：TCSVT
论文地址：arxiv

提出的Spatio-Temporal Graph Convolutional Neural Network (HSTGCNN) 由多个分支组成，这些分支对应于不同级别的图表示。高阶图表示编码人的轨迹和多个人之间的交互，而低阶图表示编码每个人的局部身体姿势。更进一步，加权组合多个分支对于不同场景变现更好。
高阶图表示被赋予更高的权重，用于在低分辨率视频中编码人的移动速度和方向，而低阶段图表示被赋予更高的权重，则用于在高分辨率视频中编码人的骨架。该模型只需对少量无异常的视频序列进行端到端的训练，就能有效地检测异常事件。

解决的问题

现有的方法有两个缺点

只能独立地编码每个人的运动，而不考虑人之间的相互作用
不同场景下模型的结构是固定的，这种模型缺乏对场景的理解

创新

高阶图表示由节点组成，每个节点代表一个人，它描述了个人之间的相对位置和相互作用，每个人的移动速度也被编码在图表示中。

低阶图表示人的姿态，并用于检测单个人的异常行为。

通过不同的分支在不同级别的图表示上进行推理，能够更好地处理不同的场景，比如其中一些场景人小且密集，而另一些场景人体大但是人少稀疏。为了理解场景并确定相应的分支的权重，使用光流场和人体边界框和骨架的平均大小将视频聚类到不同的组中，这些组就对应于不同的场景。

HSTGCNN

HSTGCNN由时空图特征提取器、未来轨迹预测器和异常仲裁器三部分组成。训练时输入是正常行为对应的图表示，并能够准确预测正常行为下人体关节的轨迹。

时空图特征提取器由时空图卷积神经网络组成，对历史帧中所有骨骼的图表示执行时空卷积运算以提取特征
未来帧预测器由时间卷积网络组成，时间卷积网络将人体骨架图表示作为输入，通过卷积运算预测未来的骨架轨迹
异常值仲裁器首先将第二部分的输出输入多个分支中，然后对所有分支的预测加权求和，得到异常值得分

视频聚类

在不同的场景下，采用不同的分支权重。在这项工作中，将训练视频分成不同的组，并使用聚类方法对具有相似场景的视频进行分组。通过收集人数、人类体边界框和骨架的平均大小、光流场和其他信息作为视频中场景的特征，作为K-means的输入。确定一组适当的权重系数（W1、W2、W3），以便最小化在训练集中对每组中的三个预测分支加权求和的损失。例如，对于人群密集的场景，高阶图表示的权重更高，而在稀疏场景中，低阶图表示的权重增加。